该不该买房?在哪儿买?多少钱?用大数据解决购房三问 | 研习社课程笔记
9月10日,混沌研习社《数据掘金》大课上,房价查询利器“兔博士”创始人刘煜和大家分享了,如何看清房地产行业中的一些关键数据。
刘煜说,过去十年里面,“该不该买房?”“买哪里?”“该花多少钱买?”这三个问题我差不多被问了15000多次。其实只要把一些关键数据拿出来就一目了然。数据能够以一种非常漂亮的方式去回答很多砖家抓耳挠腮聊半天也没有结论的问题。所以,今天我想跟大家聊聊一个更加真实的数字房地产。
(本文根据刘煜9月10日在混沌研习社的课程内容整理而成,有删节。研习社社员登陆混沌APP<点此下载>,免费观看视频回播<字幕版>,本次课程9月18日前上线,文末即可入社。)
在房地产行业讲数据大家应该是第一次听,很特别的话题。在数据时代,很多事情只有发现没有意外,所以我今天想跟大家聊一聊一个更加真实的数字房地产。
9月10日,房价查询利器“兔博士”创始人刘煜登上研习社讲台。
真相篇:
数据时代只有发现没有意外
跟大家聊聊更加真实的数字房地产
举个例子,很多人问房价到底涨了吗?我们怎么用数字说一个最真实的情况?其实看三个数据就很清楚。
土地数据:政府把土地卖给开发商的价格。
新房数据:开放商把房子卖给老百姓的价格。
二手房数据:老百姓把房子卖给老百姓的价格。
如果我们把这三个数据放在一起比较,这是北京2015年1月1日-2016年7月30日,整整19个月的数据变化:
北京
土地数据涨了22%,
新房涨了40%,
二手房涨了18%。
大家觉得高还是低?大家觉得还是蛮高的对吗?ok,我们看下上海和深圳的数据,如果做个对比会更清楚。
同样的时间段,2015年1月1日-2016年7月30日:
深圳
土地数据上涨了659%,
新房数据上涨了93%,
二手房上涨了79%。
上海
土地数据上涨了683%,
新房数据上涨26%,
二手房上涨了29%。
关于房地产三个数据拿出来,其实就一目了然了,北京这两年的房价根本就没怎么涨啊。很多砖家,经常用一些含含糊糊地表达,可能、也许、可预见的范围内有可能发生变化,这个变化是涨还是跌也说不清楚,从头到尾既没有根据更没有结论。
当某些关键数据变化时,自然就会出现“调控”或者“疯长”。数据,其实是可以用一种非常轻松漂亮的方式,去回答很多砖家经常抓耳挠腮聊好久,其实也没有结论的问题。
应用篇:
地产行业的数据与算法的最新实践
从想搞明白房价开始的兔博士
大家应该都租过房、买过房、卖过房,当我们打开房产中介的APP,基本上能够看到这样的用户界面。
虚假房源,虚假价格,虚假描述,拼命刷屏,这是互联网房地产业内习以为常的广告模式。
所有房屋中介提供的信息都是房源信息+交易报价。
什么是报价?你问我多少能卖,我报一个价格,要多少才卖。出现的结果是什么?一个只有2000户的小区,出现了5400套在售房源。虚假房源,虚假价格,虚假描述,拼命刷屏,这是互联网房地产业内习以为常的广告模式。
但是其实市场中明明有另外一个数据,可以帮助我们更好地来观察行业,如果用成交价来重新理解行业会是什么样呢?或者说,为什么已经成交的房子价格不能公布?
这是兔博士做的数据分析图,上面是每个小区近三个月的房产交易记录,下面是所有交易的明细,房源信息、成交时间、报价和成交价都有。
成交价有两个天然的好处,唯一且真实发生。
我们还公布每个售楼处里面真实的剩余房源情况,两居室还有几套,三居室还有几套。经常有用户拿着我们的数据和中介理论,以前不规范的操作手法,在数据面前很难遁形,即使你是第一次买房的80后90后,有数据在手,也有底气和房产大佬进行PK。
成交价有两个天然的好处,第一,成交价具有唯一性。根据中国目前的法律,同一套房子首次交易42日之内不可能再交易一次,而且因为税收原因,很少有人这边买了房子又转手出去。但是报价经常很多,我们经常发现夫妻双方同时在卖房子,同一套房子被挂出两个报价,一个月前的报价和一个月后的报价也不一样。
第二,真实发生。报价这件事情经常是引诱性报价,给你一个低价先让你过来,然后给你推荐不符合报价的各种房源。
所以成交价其实是最简单最高效最真实的表达方式。当我们把报价和成交价同时展现给顾客之后,原本扯不清的事情也变得超级简单了。
如果报价大于成交价,行情看涨,可以买。
报价低于成交价,行情看跌,可以卖。
报价等于成交价,观望行情。
在非常短的时间内我们就拥有了一种很强大的精准判断的能力。我们是目前第一家公布30天楼价涨跌数据,精确到每个小区的公司。打开兔博士APP之后,我们免费展示最新的相关房价数据,并明确地给出“超值”“偏贵”“合理”这样的决策建议。
兔博士为什么能够自信给出正确的建议?
首先,我们正在打造业内最大的数据库,覆盖北上广深四个城市6万个小区,165万条成交明细,这么多的数据我们是独家的,这是给我们自信去做判断的核心原因。在数据段,一定要多到能搜集出逻辑,这是大的基础。
其次,算法可能更重要。下一个板块我会对算法做一个更详细的介绍,目前,2016年1月-5月的所有成交,我们85%的成交价在我们估价的正负的10%以内。到8月份的时候,我们已经把这个压缩到了正负5%,上海可能更高一点。这就是我说的精准估量。
不同的买家对地段、房型的价值理解几乎是完全不一样的,有没有更好的办法能够做到精准推荐?
期待篇:
LBS+大数据+算法应用的新可能
对一个城市的了解从未如此清楚过
未来我们想挑战什么?过去十年里面,下面这三个问题我差不多被问了15000多次。
现在该不该买房?
买哪里的房子?
该花多少钱买?
这些问题困扰我很久,不同的买家对地段、房型的价值理解几乎是完全不一样的,有没有更好的办法能够做到千人千面的推荐?
目前我们在做一个算法模型,这是第一次公开。我们对一个街区建立版块价值模型,对这个街区做数据抓取,归成五大类的数据指标,身份识别、投资成长、交通区位、学区教育、实际社区状况,每个指标背后对应十几条到三十几条的数据字段,去建立对这个社区的真实观察,建立完观察以后,我们接着做确认。
比如上海我们知道这个地段怎么样,然后算法告诉我这个地段怎么样,如果一致,算法有效,无效,重新再算。这样的过程我们来做算法的优化。
当我们实验得差不多的时候,我们就让它来回答问题,去到一个陌生城市,怎么选择适合自己住的地方?目前我们的回答推荐是精准到地段,而且90%以上的情况匹配精准度非常好。
第二个挑战,异城推荐。
大众点评做了一个很伟大的事情就是,我们去任何一个城市敢去任何一家餐厅,携程做的一件事情就是去了任何一个城市,我们敢去任何一家酒店。
那么今天我们想做的其实是,去到任何一个陌生城市,能不能做到像居住在自己原来的城市那么熟悉自由?
你跟上海人解释望京(北京互联网公司聚集地)是怎么也解释不清楚的。但是你用标签化就很简单,北京的一等于上海的一,北京的金融街等于上海的陆家嘴。这个时候就能够让每个人的出行变得更加简单和顺心。
比如,我模拟一个上海人到北京,我是年轻人还是商务客,我喜欢热闹的夜生活,还是清静的市区,这些都可以做到非常精准的推荐,并且我们可以做到用上海地段的逻辑来判断北京,这个是非常了不起的。
大家想象一下,把这个尺度放大到全球,在不久的未来,北京的用户就能够非常精准地了解曼哈顿每一条街区,甚至超过曼哈顿当地的华人。哪条街相当于王府井,哪条路相当于中关村……就像出行在自己熟悉的城市里一样。
现场问答
混沌研习社:国际上认为比较合理的房价数据是中位数,因为平均数会受到特别高的楼盘和特别低的楼盘的影响,从而失真,您刚才给大家的数字是中位数还是平均数?
刘煜:我们刚才给大家看的是平均数,在中国房地产市场中,平均数和中位数非常靠近。另外,我们自己在APP当中用的是众数,或者是单一数,就是说这个数据是真实发生的,没有经过处理。回答这位同学的提问,在中国房地产市场当中,中位数跟平均数非常近,众数会更具有代表性。
混沌研习社:由常规地产模式转为数据模式,初心是什么呢?
刘煜:因为不拿数据出来说话,很难说明问题。就房地产行业里面来看,“请问对中国未来三年的房地产走势有什么看法?”这种问题是绝对没有办法回答的。
我们行业里已经有很多团队在加入数据经济,而且不仅仅是房地产,很多行业未来都会被数据化。如果大家用数据来说话,就会觉得那样的世界很干净很清澈,每个人都容易有自己的观点,不容易被权威或者他人左右。
混沌研习社:建立以数据算法为核心的团队,最关键的是什么?
刘煜:最关键的,相信并且投入,不相信不投入那就什么也没有。我参观过优步的数据中心,在旧金山他们有一个房间我印象特别深刻,每个人都好几个屏幕,看起来特别忙,我就问说,这个是不是你们的客服中心?优步的人看外星人一样表情说,我们没有客服,这是我们的算法中心。那间房间里面至少有五六十个算法工程师,大家算一下成本。
后来我又去了北京的滴滴总部,也是有一个房间很多人,我说,你们的算法团队也很牛逼啊,然后滴滴的人说,这是我们的客服团队。
当然这是一个段子,大家最终拼的不一定是算法,最后两家公司也握手言和了,可以拼接优势去打造更优的发展路线。
*本文根据刘煜在混沌研习社的课程内容整理而成,有删节,欢迎转发分享,转载请直接在本公众号留言获得授权,我们会及时回复。
R eading
推荐阅读 (点击文章标题,直接阅读)
eading
推荐阅读 (点击文章标题,直接阅读)
★ 上期必读《张溪梦:你找到你产品的“怒点”了吗?》
★ 深度《数据宗教可能在下一个时代征服世界》
600元入社,即可报名听课
点此下载混沌官方APP,海量课程视频随时看!
点击下方“阅读原文”,查看混沌研习社超级课程表,入社听课!